23 research outputs found
Clustering and variable selection for categorical multivariate data
This article investigates unsupervised classification techniques for
categorical multivariate data. The study employs multivariate multinomial
mixture modeling, which is a type of model particularly applicable to
multilocus genotypic data. A model selection procedure is used to
simultaneously select the number of components and the relevant variables. A
non-asymptotic oracle inequality is obtained, leading to the proposal of a new
penalized maximum likelihood criterion. The selected model proves to be
asymptotically consistent under weak assumptions on the true probability
underlying the observations. The main theoretical result obtained in this study
suggests a penalty function defined to within a multiplicative parameter. In
practice, the data-driven calibration of the penalty function is made possible
by slope heuristics. Based on simulated data, this procedure is found to
improve the performance of the selection procedure with respect to classical
criteria such as BIC and AIC. The new criterion provides an answer to the
question "Which criterion for which sample size?" Examples of real dataset
applications are also provided
Gametocytes infectiousness to mosquitoes: variable selection using random forests, and zero inflated models
Malaria control strategies aiming at reducing disease transmission intensity
may impact both oocyst intensity and infection prevalence in the mosquito
vector. Thus far, mathematical models failed to identify a clear relationship
between Plasmodium falciparum gametocytes and their infectiousness to
mosquitoes. Natural isolates of gametocytes are genetically diverse and
biologically complex. Infectiousness to mosquitoes relies on multiple
parameters such as density, sex-ratio, maturity, parasite genotypes and host
immune factors. In this article, we investigated how density and genetic
diversity of gametocytes impact on the success of transmission in the mosquito
vector. We analyzed data for which the number of covariates plus attendant
interactions is at least of order of the sample size, precluding usage of
classical models such as general linear models. We then considered the variable
importance from random forests to address the problem of selecting the most
influent variables. The selected covariates were assessed in the zero inflated
negative binomial model which accommodates both over-dispersion and the sources
of non infected mosquitoes. We found that the most important covariates related
to infection prevalence and parasite intensity are gametocyte density and
multiplicity of infection
Gametocytes infectiousness to mosquitoes: variable selection using random forests, and zero inflated models
Malaria control strategies aiming at reducing disease transmission intensity may impact both oocyst intensity and infection prevalence in the mosquito vector. Thus far, mathematical models failed to identify a clear relationship between Plasmodium falciparum gametocytes and their infectiousness to mosquitoes. Natural isolates of gametocytes are genetically diverse and biologically complex. Infectiousness to mosquitoes relies on multiple parameters such as density, sex-ratio, maturity, parasite genotypes and host immune factors. In this article, we investigated how density and genetic diversity of gametocytes impact on the success of transmission in the mosquito vector. We analyzed data for which the number of covariates plus attendant interactions is at least of order of the sample size, precluding usage of classical models such as general linear models. We then considered the variable importance from random forests to address the problem of selecting the most influent variables. The selected covariates were assessed in the zero inflated negative binomial model which accommodates both over-dispersion and the sources of non infected mosquitoes. We found that the most important covariates related to infection prevalence and parasite intensity are gametocyte density and multiplicity of infection
Sélection de variable : structure génétique d'une population et transmission de Plasmodium à travers le moustique.
Sept 2010This thesis is concerned with variable selection in two practical problems. The first one is the identification of genetically homogeneous populations without prior information on the target population. The structure of interest may be contained in only a subset of available genetic markers. We propose a model selection procedure to simultaneously solve the two-fold problem of selection of the number of populations and the relevant subset of variable. The models in competition are compared using penalized maximum likelihood criteria. Under weak assumptions on the penalty function, we proved the consistency of the selection procedure. We also proposed a new penalty function with an associated non-asymptotic oracle inequality. In practice, this result suggests a penalty function defined up to a multiplicative parameter which is calibrated thanks to the slope heuristics. Using simulated data, we found that the calibration of the penalty term improves the performances of the selection procedure with respect to classical asymptotic criteria such as AIC and BIC. In addition, we proposed a stand alone C++ package implementing our proposed selection procedure. The second problem is motivated by malaria control strategies aiming at reducing disease transmission intensity. The data we have at hand are described by variables of different types. In addition their number is of the order of the sample size. We considered a variable selection procedure based on the variable importances from random forests to face the variable selection problem. The selected variables are assessed in Zero Inflated Negative Binomial model.Dans cette thèse, nous considérons la question de sélection de variable dans deux deux problèmes pratiques. Le premier concerne une préoccupation très récurrente en génétique des populations qui consiste à regrouper les individus d'un échantillon d'organismes vivants dans des classes génétiquement homogènes sur la base d'informations procurées par un certain nombre de marqueurs génétiques. Nous supposons ne disposer d'aucune information à priori sur la population cible : il s'agit alors d'un problème de classification non supervisée. Par ailleurs, certaines variables peuvent ajouter du bruit à la classification. Nous proposons de résoudre simultanément le problème de sélection de variable et celui de sélection du nombre de composants du mélange dans une procédure de sélection de modèle. La sélection est ensuite faite via pénalisation du maximum de vraisemblance pénalisé. Sous des hypothèses faibles sur la fonction de pénalité, nous montrons que la procédure de sélection est consistance. Nous construisons ensuite une fonction de pénalité garantissant une inégalité oracle non-asymptotique. Bien que ce deuxième résultat ne soit pas directement utilisable, il suggère une pénalité de la forme du produit de la dimension des modèles en compétition et d'un paramètre données-dépendant que nous calibrons grâce à l'heuristique de la pente. Nous montrons sur des données simulées que cette calibration répond en partie au problème du choix du critère de sélection en fonction de la taille de l'échantillon. Le deuxième problème est motivé par le contrôle de la transmission de Plasmodium à travers son vecteur moustique. Nous disposons de données décrites par des variables diverses dont le nombre est de l'ordre de la taille de l'échantillon. Nous appliquons tout d'abord une procédure de sélection de variable qui repose sur l'importance des variables obtenues des forêts aléatoires. Les variables sélectionnées sont ensuite évaluées dans le modèle binomial négatif modifié en zéro
categorical multivariate data
Abstract: This article investigates unsupervised classification techniques for categorical multivariate data. The study employs multivariate multinomial mixture modeling, which is a type of model particularly applicable to multilocus genotypic data. A model selection procedure is used to simultaneously select the number of components and the relevant variables. A non-asymptotic oracle inequality is obtained, leading to the proposal of a new penalized maximum likelihood criterion. The selected model proves to be asymptotically consistent under weak assumptions on the true probability underlying the observations. The main theoretical result obtained in this study suggests a penalty function defined to within a multiplicative parameter. In practice, the data-driven calibration of the penalty function is made possible by slope heuristics. Based on simulated data, this procedure is found to improve the performance of the selection procedure with respect to classical criteria such as BIC and AIC. The new criterion provides an answer to the question “Which criterion for which sample size? ” Examples of real dataset applications are also provided
Sélection de variable (structure génétique d'une population et transmission de Plasmodium à travers le moustique)
Dans cette thèse, nous considérons la question de sélection de variable dans deux deux problèmes pratiques. Le premier concerne une préoccupation très récurrente en génétique des populations qui consiste à regrouper les individus d'un échantillon d'organismes vivants dans des classes génétiquement homogènes sur la base d'informations procurées par un certain nombre de marqueurs génétiques. Nous supposons ne disposer d'aucune information a priori sur la population cible: il s'agit alors d'un problème de classification non supervisée. Par ailleurs, certaines variables peuvent ajouter du bruit à la classification. Nous proposons de résoudre simultanément le problème de sélection de variable et celui de sélection du nombre de composants du mélange dans une procédure de sélection de modèle. La sélection est ensuite faite via pénalisation du maximum de vraisemblance pénalisé. Sous des hypothèses faibles sur la fonction de pénalité, nous montrons que la procédure de sélection est consistante. Nous construisons ensuite une fonction de pénalité garantissant une inégalité oracle non-asymptotique. Bien que ce deuxième résultat ne soit pas directement utilisable, il suggère une pénalité de la forme du produit de la dimension des modèles en compétition et d'un paramètre données-dépendant que nous calibrons grâce à l'heuristique de la pente. Nous montrons sur des données simulées que cette calibration répond en partie au problème du choix du critère de sélection en fonction de la taille de l'échantillon. Le deuxième problème est motivé par le contrôle de la transmission de Plasmodium à travers son vecteur moustique. Nous disposons de données décrites par des variables diverses dont le nombre est de l'ordre de la taille de l'échantillon. Nous appliquons tout d'abord une procédure de sélection de variable qui repose sur l'importance des variables obtenues des forêts aléatoires. Les variables sélectionnées sont ensuite évaluées dans le modèle binomial négatif modifié en zéro.This thesis is concerned with variable selection in two practical problems. The first one is the identification of genetically homogeneous populations without prior information on the target population. The structure of interest may be contained in only a subset of available genetic markers. We propose a model selection procedure to simultaneously solve the two-fold problem of selection of the number of populations and the relevant subset of variable. The models in competition are compared using penalized maximum likelihood criteria. Under weak assumptions on the penalty function, we proved the consistency of the selection procedure. We also proposed a new penalty function with an associated non-asymptotic oracle inequality. ln practice, this result suggests a penalty function defined up to a multiplicative parameter which is calibrated thanks to the slope heuristics. Using simulated data, we found that the calibration of the penalty term improves the perforrnances of the selection procedure with respect to classical asymptotic criteria such as AIC and BlC. ln addition, we proposed a stand alone C++ package implementing our proposed selection procedure. The second problem is motivated by malaria control strategies aiming at reducing disease transmission intensity. The data we have at hand are described by variables of different types. ln addition their number is of the order of the sample size. We considered a variable selection procedure based on the variable importances from random forests to face the variable selection problem. The selected variables are assessed in Zero Inflated Negative Binomial model.ORSAY-PARIS 11-BU Sciences (914712101) / SudocORSAY-PARIS 11-Bib. Maths (914712203) / SudocSudocFranceF